Gatsby Default StarterGatsby logo

1.4

图 1-1 中实验生成器模块可采用其他一些策略。确切地讲,考虑实验生成器用下面的策略提出新的棋局:

  • 产生随机合法的棋局
  • 从前面的对弈中挑选一个棋局,然后走一步上次没有走的棋而产生新的棋局
  • 一种你自己设计的策略

讨论这些策略的优劣。如果训练样例的数量是固定的,哪一个效果最好?假定性能衡量标准是在世界锦标赛上赢棋最多。


图 1-1 是西洋跳棋学习程序的设计图,如下:

图片

从直觉上讲,第三种策略应该是最好的。因为它是基于对手的行为来生成新的棋局,这样可以更好地模拟真实的对弈情况。而第一种策略是完全随机的,不具有任何参考价值。第二种策略是基于上一次对弈的,这样会有一定的参考价值,但是不如第三种策略。